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摘 要 : [目的 /意义 ] 异 文 是 古籍 中 的 常见 现象 ,也 是 重要 研究 对 象 。 传 统 的 古籍 校勘 是 从 大 量 古 籍 文献 中 人 工 查找 校勘 
资料 包括 异 文 等 ,不 仅 耗 时 、 费 力 、 工 作 量 大 ,而 且 找 到 的 数据 未 必 精 准 全 面 。 通 过 计算 机 实现 异 文 的 自动 发 据 ， 
可 以 从 更 大 规模 的 语 料 中 获取 有 效 信息 。 并 且 , 结 合 异 文 自 动 发 所 的 校勘 方式 可 以 实现 穷尽 式 检 索 , 对 于 古籍 他 
校 法 具有 重要 意义 ,为 新 时 期 古籍 校勘 研究 提供 了 新 思路 和 新 方法 。 [ 方法 /过 程 ] 本 研究 以 (春秋 》 及 “春秋 三 
传 ” 作为 实验 语 料 , 引 入 常用 于 文本 翻译 领域 的 平行 语料库 思想 ,结合 深度 学 习 算 法 ,对 LSTM 、BERT 模型 与 较为 
经 典 的 SVM 模型 进行 比较 实验 ,并 对 两 部 古籍 中 用 不 同 表述 描述 同一 事件 的 同事 异 文 相关 内 容 展 开 进 一 步 探索 
和 讨论 。[ 结果 /结论 ] 实验 得 到 适用 于 “春秋 三 传 ” 的 同事 异 文 自 动 发 所 深度 学 习 模 型 ,证 明 深 度 学 习 等 新 兴 技 术 


融合 到 十 籍 知识 库 构 建 等 研究 中 的 可 行 性 ,同时 ,深度 学 习 技 术 和 平行 语料库 思想 的 结合 在 异 文 研 究 中 能 够 发 挥 
较 大 作用 ,对 数字 人 文 在 汉语 言 文学 研究 中 的 应 用 提供 实践 支撑 。 
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我 国 古籍 资源 丰富 ,著作 不 胜 枚 举 , 异 文 现 象 十 分 
常 政 。 广 义 上 ,无 论 是 同一 文献 不 同 版 本 的 用 字 差 异 ， 
述 古 同一 事件 被 引用 、 叙 述 时 遗 词 用 句 的 区 别 都 可 以 
包 雪 在 异 文 之 中 "1。 在 文字 学 意义 上 ,由 异 文 可 明 通 
假 学 .古今 字 和 异体 字 ; 在 词汇 学 上 ,由 异 文 可 明 同 义 
词 E 阅 源 词 和 连绵 词 ;在 语法 学 上 ,由 异 文 可 明 词 序 和 
某 些 特殊 的 句法 关系 。 不 管 是 文字 学 .词汇 学 还 是 语 
法 学 ,都 可 能 会 运用 到 异 文 的 相关 研究 成 果 ” ” 。 


部 古籍 之 间 对 同一 事件 的 不 同 表述 , 即 同事 异 文 进行 
研究 ,并 引入 常用 于 文本 翻译 领域 的 平行 语料库 的 思 
想 ,结合 深度 学 习 算 法 ,对 古籍 中 的 同事 异 文 自动 发 气 
等 相关 内 容 展开 进一步 探索 ,以 期 将 新 技术 融合 到 古 
籍 知识 库 构 建 等 研究 中 ,为 其 提供 新 的 思路 和 方法 。 


2 相关 研究 


异 文 的 研究 最 早 可 以 追溯 到 古人 对 于 古籍 进行 的 
注 玻 , 到 了 近 现 代 , 很 多 学 科 的 研究 都 会 涉及 与 异 文 相 
关 的 内 容 。 正 所 谓 “ 知 其 然 , 知 其 所 以 然 ” , 异 文 的 成 


作为 中 国 古 代 的 主流 意识 思想 ,儒家 思想 对 中 国 
甚至 世界 都 有 着 深远 的 影响 。 而 4 春秋》 是 儒家 最 为 
经 典 的 著作 之 一 ,也 是 我 国 最 早 的 编 年 体 史 书 , 记 录 着 
传统 文化 和 古人 智慧 。 “春秋 笔法 , 微 言 大 义 ” ,为 《 春 
秋 》 作 传 的 “春秋 三 传 " 则 将 这 些 星 深 难 懂 的 内 容 补 充 
得 全 面 生 动 恰到好处 ,从 历史 背景 社会 风貌 和 政治 
礼 制 等 方面 为 读者 全 方位 展现 了 一 个 多 彩 春 秋 。 

本 研究 从 春秋 》 及 “春秋 三 传 "入手 ,主要 针对 两 


因 一 直 是 相关 研究 者 较为 重视 的 研究 方向 , 罗 积 勇 " 
总 结 了 古籍 中 异 文 的 4 种 成 因 , 提 出 了 异 文 不 但 对 校 
勘 和 训 计 具有 重要 价值 ,更 是 古文 释义 的 重要 参考 资 
料 。 在 这 之 后 , 王 诬 坤 呈 和 石 云 孙 所 分 别针 对 古书 异 
文 和 近 现 代 话语 中 的 异 文通 假 现 象 从 不 同 角 度 展开 研 
究 , 并 对 蜡 文成 因 等 内 容 进行 了 分 析 。 

古籍 种 类 繁多 ,经 、 史 、 子 、 集 四 部 又 下 分 四 十 四 
类 ,将 不 同类 别 古 籍 中 的 异 文 作为 研究 对 象 , 可 能 会 
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生 不 同 的 研究 结果 。 许 多 学 者 针对 古代 诗词 佛经 等 经 
典 著作 中 的 异 文 现 象 展 开 研究 。 邓 亚 文 ”和 王学军 
分 别 分 析 了 唐诗 和 宋词 中 的 异 文 现象 ,总 结 了 异 文 的 
类 型 成 因 等 内 容 。 曾 良和 江 可 心 ” 将 研究 重心 放 在 
了 佛经 异 文 上 ,基于 俗 字 知识 分 析 异 文 的 成 因 , 并 认为 
可 以 通过 异 文 来 研究 同 源 词 ,也 可 以 对 佛经 内 容 进 行 
勘误 。 有 些 学 者 则 “专攻 ” 某 部 古籍 中 存在 的 蜡 文 , 江 


也 有 一 些 研究 者 从 与 异 文 密切 相关 的 诗词 表意 、 
诗 情 关系 等 角度 人手 对 异 文 进行 深度 剖析 。 王 双 
以 李白 《 卉 道 难 》 诗 中 的 一 处 异 文 为 研究 对 象 ,从 物 情 
事理 . 诗 语 来 历 .版 本 异同 和 语言 表现 等 方面 ,分 析 了 
该 处 异 文 。 周 福 云 2 列举 出 了 《全 唐诗 》 辑 录 中 的 十 
余 处 王 维 诗 异 文 ,通过 比较 研究 的 方式 对 异 文 词义 与 
诗 情 关系 展开 分 析 。 郭 殿 忱 和 郭志 媛 ”基于 《 河 岳 英 


林 昌 (中 、 周 福 云 中、 陈 伟 玲 "中 分 别针 对 《 楚 秤 )《 离 
骚 《 怀 沙 ) 等 作品 ,分 析 了 异 文 形成 的 原因 及 其 研究 
意义 。 也 有 学 者 吓 - 岂 分 别 对 比 《 隋 人 书 出 师 贫 》 与 《 文 
选 :出师 颂 》《 太 上 洞 渊 神 咒 经 》 的 《道藏 》 本 和 敦煌 
本 ,总 结 了 其 中 的 异 文 现象 ,并 探讨 了 异 文 研究 的 实践 
意义 。 异 文 研究 意义 之 一 就 是 在 训 读 学 和 校勘 学 发 挥 
一 要 作用 。 刘 禾 六 在 训 语 学 .校勘 学 意义 上 辨析 了 同 
书 深 同 版 本 、 同 书 不 同 篇 ,不同 书 载 同类 事 以 及 某 书 引 
他 书 等 情况 下 的 异 文 , 并 总 结 了 研究 异 文 在 训 释 语义 、 
棋盘 古籍 等 方面 的 重要 作用 。 边 星 灿 '" 通过 分 析 异 
允 阴 类 型 .成 因 等 内 容 , 提 出 了 “ 异 文 引导 ”这 一 训 读 
太 江 ,以 弥补 异 文 印证 的 不 科学 性 ,并 探讨 了 异 文 在 训 
请 中 的 重要 作用 。 王 并 坤 ” 、 吴 辛 丑 "”、 于 亭 ”基于 
丰 辣 古籍 文献 ,突出 强调 了 异 文 在 文字 音韵 .训话 、 词 
语法 及 版 本 校勘 等 方面 重要 的 学 术 价值 。 近 年 来 
礁 济 洁 和 校勘 方面 的 异 文 研究 则 细 化 到 具体 典籍 中 的 


灵 集 》, 与 4 唐 写 本 唐人 选 唐 诗 兴 乐府 诗集 》 等 多 种 集 
本 相 比较 ,得 出 李白 诗 异 文 若干 ,并 对 这 些 异 文中 的 意 
境 声韵 及 诗人 际遇 等 方面 展开 讨论 。 

除 上 述 热点 方向 之 外 ,部 分 学 者 另辟蹊径 ,从 异 文 
与 教育 教学 角度 进行 研究 。 崔 达 送 等 ” 主要 研究 了 
异 文 与 古 汉语 教学 之 间 的 关系 ,并 认为 异 文教 学 有 助 
于 学 生 学 习 汉 语 、 扩 展 知 识 面 等 。 过 雨 展 ”1 考证 了 
《 宿 新 市 徐 公 店 》 的 城市 地 点 ,并 根据 当地 季节 花木 现 
象 等 方面 ,探讨 版 本 异 文 出 现 的 合理 性 ,进而 对 教材 编 
撰 中 可 能 出 现 异 文 版 本 的 选择 问题 提出 建议 。 

随 着 信息 技术 的 发 展 ,以 及 研究 者 对 于 古籍 数字 
化 进程 的 不 断 推动 ,作为 古籍 研究 不 可 或 缺 的 部 分 , 异 
文 研究 中 的 异 文 自动 发 据 也 逐渐 成 为 研究 热点 。 异 文 
的 自动 发 掘 可 以 从 大 量 的 古籍 文本 中 抽取 出 可 用 于 校 
对 的 文本 信息 ,并 实现 穷尽 式 检索 ” 。 这 一 方法 有 助 
于 解决 传统 古籍 校勘 需要 耗费 大 量 人 工 成 本 的 劣势 ， 


异 变 , 狄 牙 云 等 "表示 异 文 材料 是 古籍 校勘 中 的 重要 
人 和 依据 ,并 提出 对 ( 灵 枢 经 ) 的 异 文 研究 将 对 中 医 
学 传统 语言 学 等 方面 提供 帮助 。 薄 迎 迎 "针对 《 楚 
辞 范 * 九 章 》 中 不 同类 型 的 异 文 进行 了 研究 ,提出 这 些 
异 席 对 研究 汉语 史 、 楚 矢 训 读 史 以 及 中 古 时 期 语言 广 
字 均 具有 重要 意义 。 

异 文 在 古籍 整理 和 源流 辨别 等 方面 的 作用 亦 是 不 
容 忽 视 的 。 冯 青 和 陈 立 华 2 分 别 以 《 世 说 新 语 》 和 
《 晋 书 》 中 的 异 文 词汇 . 译 经 4 生 经 》 中 的 异 文 现象 为 例 
分 析 了 蜡 文 研究 对 《汉语 大 词典 ) 编 撰 的 作用 。 陈 仁 
仁 鸣 从 比 卦 异 文人 手 ,解读 了 今 本 .外 本 .阜阳 本 和 楚 
丛书 本 这 4 个 版 本 的 比 卦 异 文 , 为 (周易 》 版 本 变迁 的 
相关 研究 提供 线索 ,并 提出 基于 异 文 研究 还 可 以 对 比 
卦 卦 受 辞 的 历史 信息 得 出 融会 贯通 的 解读 。 任 焉 号 


同时 ,经 过 这 一 过 程 , 能 够 获取 的 信息 也 会 更 加 系统 全 
面 , 为 有 效 完善 古籍 校勘 的 技术 和 方法 提供 思路 。 姜 
慧 敏 等 ” 以 (方志 物产 》 为 研究 对 象 ,提出 了 根据 方志 
体例 规律 设计 的 自动 合并 算法 ,比较 段落 内 容 , 求 同 存 
异 , 并 对 异 文 版 本 进行 标注 ,实现 了 同 地 域 不 同时 代 方 
志 版 本 内 容 的 自动 合并 。 肖 硕 和 陈 小 荷 ”以 《三 传 春 
秋 经 》 为 例 ,通过 bigram 计算 句 珠 相似 度 匹 配 并 去 除 
同文 的 方式 来 实现 古籍 版 本 异 文 的 自动 发 现 。 李 
越 从 计算 语言 学 的 角度 基于 句子 相似 度 算 法 实现 
了 《 左 传 》 和 《史记 》 中 的 同事 异 文 自动 发 现 ,并 改进 了 
编辑 距离 算法 ,为 大 规模 古籍 异 文 处 理 提供 思路 。 赵 
红 “ 强调 了 吐鲁番 文献 中 的 异体 字 对 汉语 史 语 料 库 建 
设 的 重要 意义 ,并 认为 在 古 汉语 熟 语料库 中 保留 异 文 将 
对 异 文 的 自动 检索 和 自动 发 现 提供 帮助 。 谢 靖 ” 基于 


基于 《说 无 垢 称 经 》 这 一 汉文 佛 典 中 的 版 本 蜡 文 和 同 
经 异 译 本 ,分 析 了 同 经 异 译本 研究 、 版 本 异 文 校 释 、 同 
经 异 译 对 比 、 字 际 关 系 说 明 等 对 异 文 在 大 型 语文 辞书 
编撰 起 到 的 重要 作用 。 章 琦 ” 则 基于 两 种 不 同 版 本 
的 唐诗 《 观 棋 》 考 证 作者 创作 情况 及 文本 文化 内 涵 ,对 
《 观 棋 》 的 原创 作者 和 修改 作者 做 出 判断 。 


句子 匹配 算法 针对 《黄帝 内 经 》 进 行 了 蜡 文 自动 发 现 研 
究 ,为 中 医 古 籍 的 相关 研究 提供 了 重要 参考 。 

上 述 研究 大 多 仅 从 汉语 言 文学 这 一 视角 对 异 文 进 
行 剖 析 , 现 有 成 果 中 针对 异 文 自动 发 据 的 研究 还 相对 
较 少 。 本 研究 将 数据 源 细 化 到 经 典 的 编 年 体 史书 《 春 
秋 》 及 “春秋 三 传 " 上 ,引入 平行 语料库 的 思想 ,并 尝试 
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梁 媛 ， 王 东 波 ， 黄 水 清 . 古籍 同事 异 文 的 自动 发 气 研 究 []]. 图 书 情报 工作 ,2021 ,65(9) :97 - 104. 


应 用 深度 学 习 算 法 ,为 大 规模 语 料 情形 下 的 异 文 自动 
发 掘 提供 帮助 。 


3 ”模型 应 用 


异 文 的 自动 发 掘 在 某 种 程度 上 可 以 理解 为 具有 语 
义 相 似 性 的 两 个 句子 的 自动 匹配 ,因此 ,根据 这 一 特 
点 ,本 人 研究 在 引入 平行 语料库 思想 的 同时 ,尝试 应 用 经 
典 的 支持 向 量 机 (Support Vector Machine, SVM) ,以 及 
长 短 时 记忆 网 络 (Long Short-Term Memory , LSTM ) 和 
BERT( Bidirectional Encoder Representation from Trans- 
formers ) 模型 中 的 分 类 任务 来 实现 异 文 的 自动 发 掘 。 
3.1 SVM 
文 持 向 量 机 被 公认 为 是 在 深度 学 习 出 现 之 前 最 有 
痪 的 机 带 学 习 算法 之 一 ,是 一 种 监督 学 习 , 可 以 解决 分 
关机 珊 测 等 问题 ， 它 的 基本 思想 是 基于 训练 集 在 样本 
鹤 间 中 找到 一 个 划分 超 平 面 ,将 不 同类 别 的 样本 分 


开国 ， 在 异 文 识别 的 任务 中 ,对 候选 句 对 中 的 两 句 ， 
烛台 襄 局 日 明 " 和 “ 乘 马 日 明 ”, 分 别 进行 表征 并 拼接 
< 赴 
© 
CD 
QQ 
2 pre 
之 : 
>< Wy Gy Oy: 
© 
5 
O 
3.3 BERT 


BERT 是 由 谷歌 提出 的 一 种 深度 学 习 模型 ” , 即 
基于 Transformer 的 双向 编码 喜 表征 。 其 可 以 实现 同时 
利用 等 预测 词汇 的 上 下 文 信息 来 解决 需要 处 理 的 问 
题 , 进 而 学 习 句 间 关 系 , 以 判断 两 个 句子 是 否 相 关 。 


exp (ll = nh ) 


为 待 分 类 的 特征 ,通过 大 量 标记 候选 句 对 训练 划分 
“0”“1” 的 超 平面 ,实现 异 文 自动 发 据 模 型 。 因 此 ,本 
文选 用 SVM 作为 探索 异 文 自动 发 掘 模型 的 基准 ,通过 
对 比 尝试 获取 更 有 效 的 新 模型 。 
3.2 LST™ 

长 短 时 记忆 网 络 '” 是 循环 神经 网 络 ( Recurrent 
Neural Network ,RNN ) 的 一 种 变形 形式 ,本 研究 采用 的 
是 Siamese LSTM , 主要 用 以 解决 二 分 类 问题 ,被 称 之 为 
Siamese 是 由 于 该 模型 左右 两 边 的 句子 共享 同一 权重 。 
以 本 研究 为 例 ,Siamese LSTM 的 分 类 过 程 是 将 两 个 候 
选 句子 输入 到 模型 之 中 ,a 模型 输入 “ 克 者 何 ”,b 模型 
输入 “克之 者 何 ” ,然后 计算 两 者 的 隐 层 向 量 的 曼哈顿 
距离 (Manhattan distance) 来 评价 句子 相似 度 。 公 式 如 
下 (相似 度 区 间 为 0-1) ”1 : 

D=exp (— hh | ) 公式 (1) 

根据 公式 (1), 可 以 确认 两 个 句子 是 否 为 异 文句 
对 。 如 图 1 所 示 , 其 中 ,给 定 一 个 样本 [a,b,y] ,x,y 分 
别 为 输入 和 输出 ,y 的 结果 为 [0,1]。 


1 Siamese LSTM 模型 结构 


此 ,BERT 通常 在 文本 分 类 中 表现 相当 优异 。 以 本 实验 
数据 中 的 一 对 异 文句 对 为 例 ,将 “ 公 何 以 不 言 即 位 ”和 
“不 书 即位 ”两 名 输入 到 模型 中 ,然后 通过 随机 谈 盖 , 普 
换 或 上 下 文 预测 的 预 训练 方式 来 建立 语言 模型 ,进而 预 
测 候选 句 对 间 的 关系 , 即 预 测 句子 类 别 ,如 图 2 所 示 : 


/ 
| 


Input [a9 即 位 [5 不 书 即 [SB 

Tok 

Embeddings| | EE | | EE ES BE 
+ + + + + + + 

En E 6 E E 局 局 局 已 
+ + + + + + + 

Positi 

vm EN EN EN EE 本 于 国 国 国 一 王 


2 BERT 模型 结构 
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4 ” 异 文 标注 体系 构建 


对 于 中 国 历代 传世 文献 的 数字 化 整理 研究 而 言 ， 
“中 国 哲学 书 电子 化 计划 ”的 工作 首届 一 指 , 这 是 一 个 
线 上 电子 书 开 放 平台 ,其 打破 了 纸 质 印刷 的 壁 急 , 收 录 
了 超过 三 万 部 著作 ,是 目前 最 大 的 历代 中 文 文献 资料 
库 。 本 研究 从 该 平台 获取 了 “春秋 三 传 ”, 即 《春秋 公 
羊 传 光春 秋 坑 梁 传 《春秋 左 传 》 的 原文 数据 ,其 后 对 
结果 进行 清洗 .去 重 \ 校 对 等 预 处 理 。 
4.1 数据 预 处 理 

本 研究 是 对 于 同事 异 文 自动 发 据 的 初探 ,因此 , 优 
先 考虑 短 句 级别 异 文 匹 配 和 分 类 ,笔者 以 逗号 ( , ) 名 
号 (。) 叹 号 ( 1) 问号 (?) 分 号 (;) 冒号 ( : ) 为 句子 切 分 
短 对 上 文 数据 进行 分 句 , 共 获 得 短 名 67 693 句 。 由 于 
后 线 研 究 需 利用 每 个 短 句 的 位 置信 息 及 上 下 文 语 境 
等 -因此 ,对 每 个 短 名 赋予 标号 ( 见 表 1) ,其 中 序号 为 


顺民 标号 ,处 理 后 结果 见 图 3。 
© 表 1 短 名 标号 规范 
全 二 。”” 短 句 所 属 典籍 标号 方式 
ew ] | 
《春秋 》 0 -序号 
af) 
CNI 《春秋 公 羊 传 》 Ti= 序 导 
© 
GN 。 《春秋 玖 染 传 ) 2 -序号 
加 图 
~ 《春秋 左 传 》 3 -序号 
< 《春秋 左 传 附 》 4 -序号 
《加 其 他 (包括 篇 名 , 卷 名 等 ) 9 -序号 
-名 rr 
1G31 味 者 何 4_7 生 阿公 
1 包 32 地 期 也 4-8 宋 起 公 生 仲 子 
133 4-9 仲 子 生 而 有 文 在 其 手 
4-18 日 岛 鲁 夫人 
2-134 般 4-11 故 仲 子 短 于 我 
2-135 及 者 何 
4-12 生 桓公 而 惠 公 美 
2-136 内 局 志 渗 名 4-13 是 以 陪 公 立 而 春之 
2-137 价 、 字 也 4-14 
2-~138 父 害 傅 也 8@-1 
2-139 男 子 之 美称 也 9-15 元 年 
2-149 其 不 言 站 子 何 也 8-16 春 
2-141 音 之 上 古 仙 9-17 王 正月 
2-142 未 而 命 擒 辕 也 9-18 
2-143 不 日 、 其 旱 渝 也 A 
2-144 味 、 地 名 也 119 公 
2_145 1-20 元 年 者 何 
9- 1-21 君 之 始 年 也 
3-146 左 1~22 春 者 何 
3-147 三 月 1-23 碟 之 始 也 
3-148 公 及 向 借 父 居于 荐 1-24 王 埋 煞 捐 
3-~149 币 子 克也 1-25 况 文王 也 
3-158 未 王 命 1-26 易 羽 先 言 王 而 生 言 正月 
3-151 故 不 书 柄 1-27 王 正月 也 
3-152 日 全 父 、 贵 之 也 1-28 何 高平 王 正月 


图 3 分 句 示例 


4.2” 异 文 标注 规范 

根据 异 文 定义 对 经 过 预 处 理 的 “春秋 三 传 ” 及 《 春 
秋 》 原文 进 行 异 文 标注 , 异 文句 一 一 对 应 ,具体 规范 如 
下 :中 语义 完全 对 应 且 文 本 相似 度 较 高 。 例 如 ”成 公 意 
也 ”和 ”成 公 志 也 ”表意 相同 ,标注 为 异 文句 。@ 部 分 
语义 及 文本 对 应 。 以 短 句 为 单位 匹配 ,如 “ 公 将 平 国 而 
反之 醒 ” 和 “将 以 让 桓 也 ”对 应 形成 异 文句 对 。@@ 语 义 
相似 度 高 而 文本 相似 度 较 低 ,但 包含 同义词 等 。 同 样 
作为 异 文句 对 处 理 ,如 “ 盟 纳 季 子 也 ”和 “请 复 季 友 
也 ”, 都 表达 了 此 次 会 盟 的 目的 是 请 季 友 回国 ,但 表述 
差异 相对 较 大 。 包 文本 几乎 无 相似 之 处 ,但 表达 同一 
事件 。 如 * 则 这 国 尽 子 之 有 也 ”和 “举国 而 授 ”" 作 为 异 
文句 对 标注 。@@ 部 分 成 分 存在 省 略 或 简写 。 例 如 "和 本 
琛 良 夫 率 师 侵 宋 ” 和“ 稼 伯 宗 、 夏 阳 褒 、 生 琛 良 夫 、 帘 
相 、 部 人 、 伊 能 之 戎 、 陆 漆 、 炙 氏 侵 宋 ” 这 两 句 其 实 表达 
的 均 是 侵 宋 这 一 事件 ,但 后 者 对 于 发 动 战 争 一 方 有 更 
为 详尽 的 表述 ,这 两 个 短 句 也 作为 异 文句 对 处 理 。 再 
如 ， 诸 侯 救 元 ” 相 较 于 “公会 蛮 人 \ 宋 人 、 卷 叶 人 救 闻 ” 
运用 "诸侯 "来 代 指 参与 救 郑 的 诸侯 国 。@@ 时 间 及 表 
时 间 的 季节 等 , 均 不 作为 异 文句 对 标注 。 如 元 年 ” 
“ 春 “ 三 月 "等 。C@) 文 本 相似 度 高 ,但 语义 表达 核心 不 
同 ,不 作为 异 文句 对 。 如 " 宋 师 及 弯 师 战 于 卢 ” 表 达 宋 
齐 双方 在 颅 交战 ,而 “ 宋 败 弃 师 于 卢 ” 则 体现 了 战败 方 
即 战果 ,因此 这 两 句 不 作为 异 文句 对 处 理 。@@ 并 未 包 
含 于 上 述 7 项 规范 中 的 情况 ,笔者 均 会 查阅 相关 资料 ， 
具体 语句 具体 分 析 , 并 进行 统一 ,确保 标注 的 规范 性 。 

笔者 根据 上 述 规 范 进行 人 工 标 注 后 , 共 获 得 异 
名 对 1 692 对 。 
4.3” 异 文平 行 语料库 构建 

候选 句 对 集 以 异 文 句子 对 和 非 异 文句 子 对 1:1 的 
比例 构成 ,获得 候选 句 对 3 384 对 ,其 中 异 文句 对 根据 
4.2 节 的 规范 经 人 工 标注 生成 , 非 异 文句 对 中 各 句子 
均 来 自 4.1 节 的 数据 , 句 b 由 其 他 两 传 中 名 a 所 在 段 
落 对 应 的 段落 中 自动 生成 ,通常 为 异 文句 对 中 名 a 对 
应 句 b 后 的 第 5 句 。 之 后 ,借助 平行 语料库 的 形式 ,将 
句子 对 一 一 对 应 ,采用 “0 - 17 分 类 的 方式 ,0 表示 非 异 
文句 子 对 ,1 表示 异 文句 子 对 , 异 文平 行 语料库 部 分 数 
据 见 表 2。 


5 蜡 文 自动 发 掘 模型 实验 结果 与 评价 


5.1 实验 环境 与 参数 设置 
本 实验 采用 的 操作 系统 为 ubuntu 16. 04 ,内存 为 
16GB DDR4 ,显存 为 4GBGDDR5 ,CPU 为 Intel(R) Core 
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梁 姐 ， 王 东 波 ， 黄 水 清 . 古籍 同事 异 文 的 自动 发 气 研 究 []]. 图 书 情报 工作 ,2021 ,65(9) :97 -104. 


表 2 候选 名 对 示例 


表 3 ”模型 参数 设置 


标注 句 a 序 号 句 b 序 号 句 a 文 本 句 b 文 本 模型 参数 设置 
1 0-17 3-101 王 正 月 王 周正 月 SVM ” 迁 罚 系数 2.0, 核 函 数 类 型 为 RBF, 核 函 数 系数 为 0.5, 最 大 迭 
1 1 -31 2_61 成 公 意 也 成 公 志 也 代 次 数 10000 ， 缓冲 大 小 为 4000 ， 随机 种 子 大 小 42 
站 假 其 也 羽 父 先 会 亦 侯 .部 伯 伐 宋 LSTM ” 预 训练 字 向 量 维度 128 维 ,神经 元 数量 200, 每 批 数据 量 大 小 
200 ,最 大 训练 时 期 数 100 
0 1-2161 2-2300 侠 者 何 此 其 日 何 也 
BERT ” 预 训练 模型 :BERT-Base, Chinese: Chinese Simplified and Tradi- 
1 1-33 2 -65 公 将 平 国 而 反之 醒 将 以 访 桓 也 tional, 12 -layer，768 - hidden, 12 - heads ，110M parameters , 该 
1 2-142 3-150 未 档 命 於 周 也 未 王 命 模型 共 12 层 , 隐 层 768 维 ,12 头 模式 ,110M 个 参数 。 最 大 截断 
1 1-168 2-188 克之 者 何 克 者 何 长 度 256 ,训练 批 次 大 小 32 ,学 习 率 2e -5 ,迭代 次 数 10.0 次 
0 1-2594 2-2668 ， 隐 何 以 无 正月 “” 继 故 而 言 芭 位 则 是 与 闻 乎 狼 也 、 
人 准确 率 了 - 正确 识别 的 名 对 
0 发 之 也 能 入 也 - 正确 识别 的 句 对 + 被 错误 识别 的 句 对 
0 1-3388 3 -3426 jf 侯 、 于 名 、 
己 丑 之 日 死 而 得 讲 伺 .部 伯 朝 于 纪 x 100% 公式 (2) 
(TM) 和 党 -4590 CPU @ 3.30GHz ,GPU 型 号 为 NVIDIA 召回 率 R 正确 识别 的 句 对 
] 口 咖 | 能 5 被 识别 [其 
Ouadro K1200, 正确 识别 的 句 对 + 未 被 识别 的 句 对 
i 六 地 100% 公式 (3 
一 为 确保 3 种 模型 的 实验 结果 具有 可 比 性 ,输入 数 E i 
ee Ee 呈 2 xP xR 、 
据 芍 为 经 过 统一 处 理 的 相同 语 料 , 并 在 相同 实验 环境 调和 平均 值 F = X100% 公式 (4) 


山寺 行 。3 种 模型 参数 设置 见 表 3。 
5,2 评价 指标 
〇 此 外 ,对 模型 性 能 的 评价 ,本 研究 采用 的 指标 为 准 


确 次 ( Precision ) 召回 率 (Recall) 下 值 (F-Measure ) 。 
候 计 算 公式 如 下 : 


S.3 ”实验 结果 
本 实验 分 另 


| 运用 SVM .LSTM 和 BERT 模型 在 同一 


数据 集 上 进行 十 折 交 又 验证 ,评价 指标 数值 如 表 4 所 


个 : 


表 4 十 折 交 叉 实 验 评价 指标 结果 


7 SVM LSTM BERT 
二 P/% R/% F/% P/% R/% F/% P/% R/% F/% 
a 22.79 45.99 30. 48 53.44 52. 10 52.76 54.92 54. 09 54. 50 
2 19.44 42.39 26. 66 44.55 46.65 45.58 56.96 54.96 55. 94 
SS 21.10 44.21 28.57 56.49 53.96 55.20 56.45 54. 85 55.64 
mm 26.91 45.70 31.56 48.81 49.28 49.04 57.08 55. 13 56. 09 
-二 21.61 45.40 29.28 52. 40 51.47 51.93 61.25 57.36 59.24 
© 22. 35 45.10 29. 88 50.28 50.17 50. 22 54.99 54. 07 54. 53 
7 21.42 43.92 28. 80 49.29 49.57 49.43 60.68 58.33 59.48 
8 21.34 43.62 28. 66 48.75 49.24 49.00 52.27 51. 69 51.98 
9 27.77 43.92 30. 26 48.33 48.98 48.65 62.33 60.37 61.34 
10 24. 25 46.69 31. 92 49.53 49.71 49.62 61.36 59.20 60. 26 
均值 22.90 44.69 29.61 50. 19 50.11 50. 14 57. 83 56.00 56.90 


通过 表 4 可 以 看 出 ,整体 上 LSTM(F =50. 14% ) 
和 BERT(F = 56. 90% ) 的 效果 要 明显 优 于 SVM(F = 
29.61% ) ,SVM 的 下 值 甚至 均 低 于 30% 。 虽 然 LSTM 
和 BERT 两 者 的 了 值 差 值 相对 较 小 ,但 后 者 也 有 一 定 
幅度 的 提升 ,BERT 的 3 项 评价 指标 几乎 均 高 于 LSTM 
对 应 实验 组 别 的 评价 指标 ,并 且 ,BERT 最 优 模型 的 下 
值 达 到 了 61.34% 。 虽 然 得 出 的 评价 指标 数值 似乎 并 
没有 非常 高 ,但 是 与 前 人 的 实验 结果 相 比 较 也 是 相对 
理想 的 ,特别 是 ,在 此 之 前 运用 深度 学 习 甚至 是 机 器 学 


习 进行 异 文 自动 发 掘 的 研究 均 非 常 少 , 李 越 ”改进 纺 
辑 中 离 算 法 实现 同事 异 文 自动 发 现 最 好 结果 为 P = 


46.02% ,R =90.15% ,F =60.93% ,本 实验 最 优 模 型 下 


值 高 于 已 有 算法 结 


, 且 准确 率 有 明显 提升 。 


本 实验 将 深度 学 习 模 型 应 用 到 “春秋 三 传 ”" 异 文 
自动 发 据 中 ,并 与 经 典 机 器 学 习 算法 SVM 在 相同 数据 


集 上 的 实验 结 员 


进行 对 比 ,证 明 深 度 学 习 在 该 研究 领 


域 中 的 表现 有 明显 优势 ,因此 ,在 异 文 自动 发 据 模 型 的 
选择 上 ,BERT 的 表现 较为 出 色 ,而 LSTM 也 相对 较 好 ， 
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两 者 都 明显 优 于 较为 经 典 的 SVM 模型。 
6 基于 蜡 文 自动 发 掘 结果 分 析 


本 文 对 标注 得 到 的 1 692 对 蜡 文句 对 进一步 分 
析 , 异 文句 对 的 数量 分 布 如 表 5 所 示 , 《春秋 》《 公 羊 
传 》21 对 名 对 互 为 异 文人 《春秋 兴 末 梁 传 ?19 对 句 对 互 
为 蜡 文 《 春 秋 兴 左 传 》970 对 名 对 互 为 异 文 《 公 羊 
传 兴 珊 梁 传 》 中 存在 513 对 异 文 《 公 羊 传 兴 左 传 》 共 
有 89 对 蜡 文 句 对 ,《 珊 梁 传 兴 左 传 ? 共 有 80 对 蜡 文句 
对 。 


表 5 异 文句 对 分 布 情况 (单位 :对 ) 


其 日 人 何 也 ? 爱 曾 修平 山 戎 也 ” 

《 公 羊 传 》 在 解释 4 春秋 》 称 齐 侯 为 " 齐 人 "的 原因 
时 ,对齐 侯 表达 了 贬抑 之 情 ,而 4《 末 梁 传 》 则 解释 为 对 
齐 侯 的 爱惜 ,不 想 齐 侯 与 山 戎 并 称 。 这 种 情况 由 于 候 
选 句 对 表意 完全 相反 ,因此 ,在 本 研究 中 不 作为 异 文句 
对 进行 处 理 。 


7 _ 结语 


数字 人 文 是 新 技术 与 人 文 研究 有 机 结合 的 良好 方 
式 。 近 年 来 , 随 着 古籍 数字 化 进程 的 不 断 推进 ,古籍 相 
关 研 究 在 数字 人 文 领域 逐渐 占有 一 席 之 地 ,而 蜡 文 则 
是 古籍 研究 ,特别 是 古籍 数字 化 不 可 缺少 的 重要 部 分 。 


春秋 公 羊 伟 末 梁 传 左 传 
- 20 19 969 
1 一 502 88 
0 11 - 78 
1 1 2 - 


全 :春秋 三 传 "有 各 自 的 语言 风格 ,《 左 传 ) 大 部 分 行 
X 辞 简洁 ,通常 运用 和 《春秋 》 相 同 或 相似 的 表述 一 
笔 带 过 .简明 扼要 ,但 对 于 需要 特别 扩展 的 事件 则 不 厌 
:说 能够 清晰 地 叙述 事件 来 龙 去 脉 的 同时 ,又 使 事件 
3ONI 公 的 形象 嘱 然 纸 上 。《 左 传 ) 中 描绘 生动 的 人 物 
允 肖 也 是 其 语言 特色 之 一 ,这 两 点 也 同时 为 异 文 自动 
识别 增 大 了 难度 ,但 这 也 是 异 文 自动 发 据 研究 的 意义 
三。 除 此 之 外 ,《 左 传 ) 也 将 不 少 笔墨 放 在 了 对 于 事 
颖 生 这 一 时 期 的 背景 上 ,多 以 “ 左 附 "的 方式 出 现 ， 
本 级 究 中 “ 左 附 ” 的 内 容 并 没有 纳入 异 文 标注 体系 之 
中 $3 要 是 由 于 其 一 般 为 介绍 菜 一 时 期 或 事件 的 前 因 
后 梨 .环境 背景 等 ,因此 很 少 与 其 他 3 部 典籍 中 的 文本 
形成 异 文 。 

相对 而 言 《 裁 粱 传 》 和 《 公 羊 传 》 的 叙事 风格 则 更 
为 相似 ,大 多 采用 设 问 句 这 种 一 问 一 答 的 方式 行文 ,由 
上 一 个 问题 的 答案 引出 下 一 个 问题 ,逻辑 清晰 ,条 分 缕 
析 , 内 容 多 集中 于 记录 某 一 事件 的 原因 ,该 事件 具有 哪 
些 特殊 性 或 者 与 其 他 事件 有 哪些 关联 或 共同 点 等 ,这 
些 异 文句 对 识别 难度 相对 较 小 。 

但 这 两 本 典籍 中 有 时 也 会 出 现 对 于 同一 事件 有 着 
不 同 甚至 相反 的 解释 。 

例 : 

《春秋 》 “ 讲 人 伐 山 忒 。” 

《 公 羊 传 " 庄 公 三 十 年 》 “此 襄 修 也 ,其 称 人 
何 ? 贬 。” 
《高梁 传 . 庄 公 三 十 年 》 


异 文 的 自动 发 气 不 但 可 以 大 幅度 降低 传统 古籍 校勘 的 
人 工 成 本 ,同时 也 为 新 技术 与 典籍 研究 的 融合 验证 了 
可 行 性 。 因 此 ,本 研究 以 《春秋 》 及 “春秋 三 传 ”为 实验 
语 料 , 引 入 常用 于 文本 翻译 领域 的 平行 语料库 思想 , 构 
建 了 蜡 文平 行 语料库 及 标注 规范 ,并 通过 对 SVM、 
LSTM 和 BERT 模型 实验 结果 的 对 比分 析 , 发 现 深度 学 
习 模 型 在 异 文 自 动 发 掘 方面 有 很 好 的 表现 ,这 说 明 深 
度 学 习 和 平行 语料库 在 异 文 相关 研究 中 可 以 发 挥 较 大 
的 作用 ,为 异 文 自 动 发 掘 提供 可 行 性 方案 ,值得 扩展 和 
复 用 。 笔 者 将 在 后 续 的 研究 中 不 断 探索 新 技术 ,提高 
异 文 自动 发 气 模 型 性 能 的 同时 ,也 会 将 应 用 语 料 延 伸 
到 更 多 典籍 之 中 。 

此 外 ,通过 对 识别 出 的 异 文句 对 进行 分 析 , 本 研究 
可 从 以 下 几 个 方面 改进 和 探索 :对 于 低频 异 文 类 型 
的 识别 ,尝试 改进 模型 或 算法 ,比如 文本 相似 度 很 高 的 
非 异 文句 对 以 及 文本 相似 度 很 低 的 异 文句 对 识别 难度 
较 大 , 常 出 现 识别 错误 或 无 法 识别 的 现象 。@ 本 研究 
目前 只 尝试 了 短 句 一 对 一 匹配 的 形式 ,采用 将 多 对 一 
的 句子 转化 为 一 对 一 的 形式 , 即 忽 略 部 分 短 句 ,只 将 语 
义 核心 短 句 标注 为 异 文句 对 ,这 可 能 也 会 对 异 文 自动 
发 据 效 果 产 生 影 响 ,后 续 人 研究 将 尝试 更 多 类 型 的 异 文 
句 对 标注 形式 。@ “春秋 三 传 ” 均 属于 编 年 体 史书 ， 
本 研究 从 该 类 型 史书 人 手 , 未 来 的 研究 将 扩展 到 纪 
传 体 史书 例如 《 史记》 等 典籍 上 ,也 希望 后 续 可 以 应 
用 到 更 多 类 型 的 古籍 异 文 自动 发 气 中 。 也 本 人 研究 采 
用 的 模型 均 未 加 入 上 下 文 语 境 特征 、 同 义 词 词典 等 ， 
后 续 笔 者 将 利用 序号 自动 获取 异 文 句 对 的 上 下 文 ， 
辅助 提高 模型 识别 效果 ,同时 引入 人 和 名、 官职 名 、 各 
词性 同义词 词典 等 ,以 求 获得 更 具 优 势 的 异 文 自动 
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梁 姐 ， 王 东 波 ， 黄 水 清 . 古籍 同事 异 文 的 自动 发 气 研 究 []]. 图 书 情报 工作 ,2021 ,65(9) :97 - 104. 
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Absiract: | Purpose/ significance | Variations are a common phenomenon and also an important research object 
in ancient books. The traditional collation of ancient books is to manually search for materials, including variations 
from a large number of ancient books. This work is not only time-consuming, laborious, and heavy, but the data may 
not be accurate and comprehensive. Automatic mining of variant sentences through computers can obtain effective in- 
formation from larger-scale corpus. In addition, the collation method combined with automatic mining of variant sen- 
tences can realize exhaustive retrieval, which is of great significance to the collation of ancient books. [It provides new 
ideas and methods for the collation research of ancient books in the new period. | Method/process | This research 
automatically mined the variant sentences in Three Biographies of the Spring and Autumn Period, combining deep 
learning and introducing parallel corpus commonly used in the field of machine translation. Subsequently, this study 
compared LSTM and BERT models results with the classic SVM model and further explored and analyzed the related 
[ Result/ conclu- 


Reon | The experiment obtained a deep learning model for automatic mining of variants expressing the same event suit- 


Kontent of the variants expressing the same event with different descriptions in two ancient books. 


GDle for Three Biographies of the Spring and Autumn Period. It proves the feasibility of integrating new technologies 
Ch as deep learning into the construction of ancient books ”knowledge base. Meanwhile, the combination of deep 

rning and parallel corpus can play a more significant role in studying variant sentences and provide practical sup- 
for applying digital humanities in the Chinese language and literature. 


Keywords: Three Biographies of the Spring and Autunm Period variants BERT automatic mining digital humanities 
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作者 应 该 是 论文 的 创意 者 .实践 者 或 扎 稿 者 , 即 论文 的 责任 者 与 著作 权 拥 有 kmf. ac. en) 在 发 表 后 立即 实施 开放 获取 ,鼓励 自 存储 ,基本 许可 方式 为 CC - 
者 。 署 名 作者 的 人 数 和 顺序 由 作者 自 定 ,作者 文责 自负 。 所 有 作者 要 对 所 提交 的 BY( 署名 ) 。 详 情 参 阅 期 刊 首页 OA 声明 。 
稿件 进行 最 后 确认 。 9. 选 题 范 围 
论文 应 列 出 所 有 作者 的 姓名 ,对 研究 工作 做 出 贡献 但 不 符合 作者 要 求 的 人 互联 网 与 知识 管理 ,大 数据 与 知识 计算 .数据 监护 与 知识 组 织 .实践 社区 与 
要 在 致谢 中 列 出 。 知识 运营 、 内 容 管 理 与 知识 共享 数据 关联 与 知识 图 谱 、 开 放 创 新 与 知识 创造 、 
论文 同意 在 我 刊 发 表 , 以 编辑 部 收 到 作者 签字 的 “论文 版 权 转 让 协议 "为 依据 。 ”数据 挖掘 与 知识 发 现 。 
依照 《著作 权 法 规定 ,论文 发 表 前 编辑 部 进行 文字 性 加 工 、 修 改 、 删 节 , 必 10. 关于 数据 集 出 版 
要 时 可 以 进行 内 容 的 修改 ,如 作者 不 同意 论文 的 上 述 处 理 , 需 在 投稿 时 声明 。 为 方便 学 术 论文 数据 的 管理 共享、 存储 和 重用 ,近日 我 们 通过 中 国 科学 院 
我 刊 采用 知识 共享 署名 (CC BY ) 协 议 , 允 许 所 有 人 下 载 .再 利用 、 复 制 .改编 \ 传 ”网 络 中 心 的 ScienceDB 平台 (www. sciencedb. en) 开通 数据 出 版 服务 ,该 平台 支 
播 所 发 表 的 文章 ,引用 时 请 注 明 作 者 和 文章 出 处 (推荐 引用 格式 如 : 匡 庆 海 . 企业 知 。”“” 持 任意 格式 的 数据 集 提交 ,欢迎 各 位 作者 在 投稿 的 同时 提交 与 论文 相关 的 数据 
识 茜 取 理 论 与 实践 研究 [J/OL]. 知识 管理 论坛 , 2016, 1(4):; 243 -250[ 引 用 日 集 ( 稿件 提交 的 第 5 步 即 进入 提交 数据 集 流程 ) 。 
期 ]. http://www. kmf ac. cn/p/1/36/. ) 。 11. 投稿 途径 
4. 写作 规范 本 刊 唯一 投稿 途径 :登录 www. kmf. ac. en ,点 击 作者 投稿 系统 ,根据 提示 进 
本 刊 严 格 执行 国家 有 关 标 准 和 规范 ,投稿 请 按 现行 的 国家 标准 及 规范 扎 ”” 行 操作 即 可 。 
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